クラウドストレージへのファイルアップロード&ETLツール『Data Uploader』の変換処理で出来ること(列操作編) #データ統合基盤 #CSアナリティクス
当エントリは『クラスメソッド CSアナリティクス Advent Calendar 2020』8日目のエントリです。
- クラスメソッド CSアナリティクス Advent Calendar 2020 - Qiita
- クラスメソッド CSアナリティクス Advent Calendar 2020 | 特集カテゴリー | Developers.IO
- ビッグデータ分析支援のカスタマーストーリーアナリティクス|クラスメソッド|クラスメソッドのサービス
当エントリでは、クラスメソッドが展開しているデータ統合基盤サービス『CSアナリティクス』(以降"CSA")のプロダクト群の1つ、『Data Uploader』の変換処理で出来ることの中で「列操作」に関する処理を紹介します。
目次
CSA Data Uploaderの「変換処理」とは
CSA Data Uploaderは「クラウドストレージ環境へのファイルアップロードをサポートする"簡易ETLツール"」であり、「任意のデータソースからデータを抽出(Extract)」「抽出したデータを変換(Transform)」「任意のクラウドストレージへのアップロード(Load)」を行うことが可能です。
この中の「抽出したデータを変換(Transform)」に関する部分では、データをアップロードする上で必要になりそうな基本的な「データの中身に対する変換処理」を定義し実行させることが可能です。現状まだそこまで(変換処理の)数についてはそこまで多くは無いですが、今後も適宜追加をしていく予定です。
変換処理は、ジョブ定義の「変換」パートにある[追加]を押下する事で定義が可能です。
変換処理は複数定義することが出来、上から順に定義された処理を対象データ(入力要素として指定した内容)に対して実行します。
変換処理定義の両脇にある「データ表示」のリンクを押下することで、変換処理前後のデータの在り方をプレビュー確認することが出来るので、変換処理がどのようにデータに対して作用するのかを確認しながら処理を作成していくことが可能です。
CSA Data Uploaderの変換処理一覧(列操作)
当エントリでは、そんな変換処理の中でも「列操作」に関するものを紹介していこうと思います。現時点(2020年12月)で利用可能な変換処理の定義は以下のものが存在します。
カラム選択
直前のデータ列一覧の中から、後続処理への処理対象とする列を選択することが出来ます。対象外となった列のデータは後続処理へは引き継がれません。列の並び順は上から順番となります。
カラムの並び替え
直前のデータ列一覧の「並び順」を、任意の順番に変えることが出来ます。項目の操作はドラッグ&ドロップで行います。
カラムの追加
直前のデータに対し、末尾に新たな列を追加します。追加可能な列の内容は以下の通り。
ファイルパス
「データ行が格納されているファイル名及びフォルダ名」(バケット名は除く)を出力します。
ファイル名
「データ行が格納されているファイル名」を出力します。
変換例:
データ番号
データ行の「行番号」を出力します。
変換例:
カラム名変更
直前のデータ列一覧の「ヘッダー列」の任意の列名を変更することが出来ます。
変換例:
列分割
任意の列項目に対して条件を指定する事で、条件に応じた形の「列の分割」を行うことが出来ます。
指定可能な条件は以下の通り。
- 分割対象となる列項目
- 分割する数(2〜10を指定可能、指定数を超えて分割された情報は破棄されます)
- 分割の方法(任意の桁数、または任意の区切り文字)
変換例(1).指定の桁数で列分割
変換例(1).の変換結果
変換例(2).任意の文字列で列分割
変換例(2).の変換結果
まとめ
という訳で、『クラスメソッド CSアナリティクス Advent Calendar 2020』8本目のエントリ、『Data Uploader』の変換処理(列操作編)の紹介でした。CSA Data Uploaderは1ヶ月間のトライアル利用が可能となっています。興味をお持ち頂いた方は是非無料版ダウンロードページからインストーラを入手頂き、お試し頂けますと幸いです。
では、明日(9日目)のエントリもお楽しみに!